ANÁLISIS DE SENDEROS (II)Gabriel Sotomayor

CONTENIDOS

•Recordatorio de la sesión anterior: Conceptos básicos y supuestos del PA

•Pasos de aplicación del PA

•Especificación

•Identificación

•Estimación de parámetros

•Evaluación del ajuste

•Re-especificación del modelo

•Interpretación de resultados

•Aplicación de PA en R

1. REPASO DE LA SESIÓN ANTERIOR

CONCEPTOS CENTRALES

Análisis de senderos: es un método que permite evaluar el ajuste de modelos

teóricos en los que se proponen un conjunto de relaciones de dependencia entre

variables. Extensión de RLM.

•Variables exógenas: sus causas son externas al modelo, su función es explicar las

otras variables internas del modelo.

•Variables endógenas: tienen sus causas en una o más variables del modelo,

incluyen variables dependientes e intervinientes.

•Efectos directos: influencia inmediata de una variable sobre otra.

•Efectos indirectos: influencia mediada por una o más variables intermedias.

•Efectos espurios: relación entre dos variables endógenas es influenciada por una

tercera variable no contemplada en el modelo.

SUPUESTOS DEL PATH ANALYSIS (I)

•Path Analysis (PA) es una extensión del análisis de regresión múltiple y requiere el

cumplimiento de sus supuestos junto con otros adicionales.

•Exploración de datos: Detectar valores extremos (outliers) y valores perdidos

(missing) para evitar distorsiones en el análisis. Para los outliers, se pueden usar

puntajes Z (rango +-3) y la distancia de Mahalanobis (D²).

•Manejo de outliers: Recomendado removerlos o recodificarlos al puntaje extremo

más próximo.

•Valores perdidos: Su impacto depende de la cantidad y el patrón.

SUPUESTOS DEL PATH ANALYSIS

(II)

•Tamaño de la muestra: Se recomienda entre 10 y 20 casos por parámetro y al

menos 200 observaciones.

•Independencia de errores: El término de error de cada variable endógena no debe

correlacionarse con otras variables.

•Normalidad: Los datos deben seguir una distribución normal. Se puede verificar la

normalidad univariada y multivariada examinando los índices de asimetría y

curtosis, y el índice multivariado de Mardia.

SUPUESTOS DEL PATH ANALYSIS

(III)

•Linealidad y Multicolinealidad: Los datos deben tener una relación lineal y las

correlaciones bivariadas entre variables no deben ser demasiado altas (más de 0.85

indica posible multicolinealidad).

•Recursividad: Las influencias causales deben ser unidireccionales y sin efectos

retroactivos.

•Nivel de medición intervalar: Se asume para la mayoría de las variables, aunque a

veces se pueden usar variables nominales u ordinales.

•Confiabilidad: Los instrumentos de medición utilizados deben tener propiedades de

confiabilidad al menos moderadas.

PASOS DE APLICACIÓN DEL ANÁLISIS

DE SENDEROS

PASOS DEL PATH ANALYSIS

Especificación: Define las variables y relaciones en el modelo explicativo.

Identificación: Verifica si el modelo está correctamente identificado.

Estimación de parámetros: Estima los parámetros con base en las varianzas y

covarianzas muestrales.

Evaluación del ajuste: Revisa si las relaciones del modelo reflejan adecuadamente

las observadas en los datos.

Re-especificación del modelo: Mejora el ajuste del modelo si es necesario.

Interpretación de resultados: Extrae conclusiones significativas de los datos.

ESPECIFICACIÓN

Determina las variables y su relación basada en el conocimiento teórico del

fenómeno.

Evita errores de especificación interna y externa para desarrollar un modelo de alto

valor explicativo y relevancia teórica.

Errores de especificación interna: por omisión de parámetros relevantes o inclusión de

parámetros irrelevantes.

Errores de especificación externa: variables omitidas.

Ejemplo: Un modelo de rendimiento académico en Lengua debería incluir la variable

de autoeficacia para la escritura.

IDENTIFICACIÓN

•Antes de recoger los datos, asegura que el modelo esté correctamente identificado:

determinar si se cuenta con la cantidad suficiente de información para constrastarse

el mdoelo.

•Calcula los grados de libertad del modelo para determinar si se dispone de

suficiente información.

•gl= ½ x (Nº de variables observadas x (Nº de variables observadas + 1)) –Nº

parámetros a estimar

•Diferentes estados del modelo: identificado (gl=0, ajuste perfecto), por lo que no

resulta de interés, solo reproduce la matriz de correlaciones original, sub-

identificado (gl<0, necesita más información), sobre-identificado (gl>0, puede ser

estimado y contrastado).

ESTIMACIÓN DE PARÁMETROS

Estima los valores de los parámetros que proporcionen un ajuste óptimo entre la

matriz reproducida y la observada.

Si la matriz residual es próxima a cero (matriz observada - matriz reproducida =

matriz residual) el ajuste es bueno.

Método más común: Máxima Verosimilitud (ML, Maximum Likelihood), que requiere

supuestos como muestra de tamaño adecuado, medidas al menos de nivel intervalar,

y distribución normal multivariada.

Este método es robusto a ligeras desviaciones de la distribución normal (valores de

hasta 70 en el coeficiente de Mardia).

Otros métodos pueden ser utilizados en casos de ausencia de normalidad o variables

categóricas: WLS, DWLS.

EVALUACIÓN DEL AJUSTE

•Revisa si las relaciones en el modelo reflejan adecuadamente las relaciones

observadas en los datos.

•Evaluar en términos de: (a) magnitud y significación de los parámetros estimados,

(b) varianza explicada por las variables, y (c) ajuste del modelo a los datos.

•Uso de estadísticos de bondad de ajuste: ajuste absoluto (chi cuadrado, RMSEA),

ajuste relativo (CFI, TLI), ajuste parsimonioso (NFI).

EVALUACIÓN DEL AJUSTE

RE-ESPECIFICACIÓN DEL MODELO

Si el ajuste no es óptimo, el modelo puede ser re-especificado.

Las decisiones de añadir o eliminar parámetros deben estar en línea con la teoría subyacente

al modelo propuesto.

Índices de modificación y análisis de residuos pueden ser utilizados para orientar las

modificaciones del modelo.

El valor del índice de modificación corresponde aproximadamente a la reducción en el X² que

se produciría si el coeficiente fuera estimado.

Un valor > 3.84 sugiere que se obtiene una reducción estadísticamente significativa en el X²

cuando se estima el coeficiente.

La existencia de residuos elevados entre parejas de variables (> 2.58) señalaría la

necesidad de introducir parámetros adicionales susceptibles de explicar la relación entre las

variables en cuestión.

INTERPRETACIÓN DE COEFICIENTES PATH

Coeficientes path: indican la magnitud y el signo del efecto de una variable sobre otra

variable endógena, representan el efecto de una variable sobre otra, controlando el resto de

las variables. Corresponden a coeficientes estandarizados.

castigo_media ~ rwa_media (0.284, p < 0.001):

Interpretación para una variable intervalar: por cada desviación estándar que aumenta en

el "autoritarismo de derechas" (rwa_media), se espera que el "castigo severo"

(castigo_media) aumente en promedio en 0.284 desviaciones estándar, controlando por las

demás variables del modelo.

rwa_media ~ izquierda (-0.35, p < 0.001):

Interpretación para una variable nominal: En promedio, ser de izquierdas está asociado con

una disminución de 0.35 desviaciones estándar en el "autoritarismo de derechas"

(rwa_media), comparado con ser independiente, controlando por las demás variables del

modelo.

INTERPRETACIÓN DE COEFICIENTES PATH

Componentes de la interpretación:

•Tamaño.

•Dirección.

•Control estadístico.

•Efecto promedio (o predicho por el modelo).

•Significación estadística.

INFERENCIA EN ANÁLISIS DE SENDEROS

Al interpretar nuestros resultados queremos saber si contamos con evidencia

suficiente para señalar las relaciones que observamos en nuestra muestra son

estadísticamente significativas, es decir, si es probable que estas sean distintas de 0

en la población de la cual se extrajo la muestra.

Para esto debemos comparar el coeficiente path con su error estándar.

INTERPRETACIÓN DE RESULTADOS

•Extrae conclusiones significativas basadas en los datos y el ajuste del modelo.

•Proporciona una visión general del fenómeno bajo estudio basado en los resultados

del análisis de senderos.

APLICACIÓN EN R

ACTIVIDAD 2:EFECTOS INDIRECTOS

En grupo de 2 o 3 personas, piensen en al menos 3 efectos indirectos que podríamos

medir en sociología. Redacten las hipótesis propuestas (una por relación).

Para esto deben al menos contar con una variable independiente, una interviniente y

una dependiente.

También puede haber otras formas:

CONSTRUCCIÓN DE

DIAGRAMAS DE

SENDEROS EN LAVAAN

Para evaluar los modelos de

análisis factorial confirmatorio y

de senderos (y ecuaciones

estructurales) en R, necesitamos

expresarlos mediante el

lenguaje de fórmulas del

paquete lavaan.

Sintaxis

Comando

Ejemplo

Regresar en

Regresar

B sobre A:

B ~ A

(Co)varianza

Varianza de A:

A ~~ A

Definir variable

latente

Definir Factor 1 por

-D: F1 =~ A + B + C

+ D

Definir parámetro

fuera del modelo

Definir parámetro u2

como doble del

cuadrado de u: u2 :=

2*(u^2)

Etiquetar

parámetros

(etiqueta antes de

símbolo)

Etiquetar la regresión

de Z sobre X como b: Z

~ b*X

EJEMPLO

En este caso, siendo ingresos “ing”, contratación de trabajo doméstico “ctd” y horas

dedicadas al trabajo domestico “htd”, la formula quedaría definida de la siguiente

manera:

mod_sendero <- ‘ctd ~ ing

htd~ ctd’

Ahora practiquemos con algunos ejemplos.

Como criterio general, cada variable endógena (con flechas apuntándole), será una

línea de la especificación del modelo.

Ingresos

Contratación de

trabajo doméstico

remunerado

Horas dedicadas

al trabajo

doméstico

EJERCICIO 3

Escribamos los diagramas

confeccionados en el ejercicio

1 y ejercicio 2 a partir de la

sintaxis de formulas de

lavaan.

Sintaxis

Comando

Ejemplo

Regresar en

Regresar

B sobre A:

B ~ A

(Co)varianza

Varianza de A:

A ~~ A

Definir variable

latente

Definir Factor 1 por

-D: F1 =~ A + B + C

+ D

Definir parámetro

fuera del modelo

Definir parámetro u2

como doble del

cuadrado de u: u2 :=

2*(u^2)

Etiquetar

parámetros

(etiqueta antes de

símbolo)

Etiquetar la regresión

de Z sobre X como b: Z

~ b*X

EJERCICIO 3

Escribamos los diagramas

confeccionados en el ejercicio

1 y ejercicio 2 a partir de la

sintaxis de fórmulas de

lavaan.

Sintaxis

Comando

Ejemplo

Regresar en

Regresar

B sobre A:

B ~ A

(Co)varianza

Varianza de A:

A ~~ A

Definir variable

latente

Definir Factor 1 por

-D: F1 =~ A + B + C

+ D

Definir parámetro

fuera del modelo

Definir parámetro u2

como doble del

cuadrado de u: u2 :=

2*(u^2)

Etiquetar

parámetros

(etiqueta antes de

símbolo)

Etiquetar la regresión

de Z sobre X como b: Z

~ b*X